LAMOST 数 据 流 与 光谱 质量 控制 研究 
RBM, F py se! 
(1. 中 国 科学 院 光 学 天 文 重点 实验 室 (国家 天 文 台 ) AK 100101; 2. 中 国 科学 院 大 学 ， 北 京 
100049) 

摘 要 :， 郭 守 否 望远镜 (LAMOST) 每 日 产生 海量 观测 数据 ， 数 据 处 理 涉 及 观测 计划 生成 、 二 
维和 一 维 数据 分 析 、 参 数 测量 、 质 量 控制 和 光谱 释放 等 诸多 环节 。 为 了 更 高 效 地 获取 、 处 理 、 分 
析 数 据 和 发 布 数据 以 及 及 时 解决 数据 处 理 过 程 中 出 现 的 问题 ,开展 了 LAMOST 数 据 流 与 光谱 质量 
控制 研究 。 首 先 ， 深 入 研究 LAMOST 系 统 数 据 流 和 工作 流程 ， 结 合 关系 型 数据 库 进 行 数据 建 模 ， 
实现 基于 Linux 的 MySQL 数 据 库 系统 , 将 数据 处 理 和 发 布 各 个 环节 有 机 串联 并 融合 在 一 起 ; 然后 ， 
基于 该 数据 库 系 统 ， 定 义 光谱 质量 控制 模型 ， 建 立 光 谱 质 量 控制 系统 ， 严 格 控制 光谱 质量 和 光谱 
产 出 各 个 环节 ,从 而 为 优质 的 光谱 资源 的 释放 提供 保障 。 该 数据 流 与 光谱 质量 控制 系统 可 以 很 好 
的 满足 LAMOST 数 据 处 理 和 数据 管理 的 需要 ， 是 可 以 扩展 至 同类 望远镜 系统 进行 数据 处 理 的 一 
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郭守敬 望远镜 (LAMOST， 大 天 区 面积 多 目标 光纤 光谱 天 文 望远镜 ) 中 是 一 架 新 类 型 的 大 视 
场 兼 备 大 口径 望远镜 。2017 年 6 月 ，LAMOST 圆 满 完成 了 为 期 五 年 的 第 一 期 光谱 这 天 任务 ， 共 获 
取 了 约 900 万 条 光谱 数据 ， 其 中 高 质量 光谱 数 〈 信 噪 比 大 于 10) 超过 700 万 及 超过 $00 万 组 恒星 参 
BM, 远 远 超过 了 全 世界 光谱 巡天 项 目 获取 的 光谱 数 总 和 , 为 天 文学 家 研究 银河 系 及 一 般 星系 的 形 
成 与 演化 提供 了 重要 的 基础 性 数据 。 

LAMOST 每 夜 上 万 天 体 的 观测 和 数 G 字 节 的 FITS 握 构成 了 一 个 海量 数据 集合 。 为 了 高 效 地 利 
用 LAMOST 的 观测 能 力 ，LAMOST 已 经 建成 了 一 套 完整 的 自动 化 观测 、 数 据 处 理 和 存储 的 软件 
系统 四， 其 中 主要 包括 巡天 战略 系统 (SSS)、 观 测控 制 系统 (OCS)、 二 维 光谱 数据 处 理 (2D)、 一 维 
光谱 数据 处 理 系统 (ID)。 如 何 有 效 地 维护 和 管理 巡天 过 程 中 产生 的 海量 观测 和 光谱 数据 ， 并 将 
这 些 数 据 和 以 上 软件 系统 有 机 地 融合 起 来 是 光谱 数据 处 理 系统 要 解决 的 首要 问题 之 一 。 
借助 于 数据 库 系统 来 对 数据 处 理 数据 流 进行 整合 和 管理 是 一 种 行 之 有 效 的 解决 方案 。 国 内 外 
越 来 越 多 的 望远镜 巡天 项 目 带 来 越 来 越 多 的 海量 数据 存储 和 处 理 的 客观 要 求 , 对 数据 库 技术 要 求 
也 越 来 越 高 。 虽 然 国 外 已 经 建立 了 成 熟 的 数据 服务 网 站 ， 比 如 ADS. SDSS 等 ， 虽 然 它们 都 能 
够 提供 某 个 方面 的 服务 ， 比 如 数据 交叉 服务 ， 数 据 可 视 化 服务 ， 数 据 下 载 服务 等 ， 但 是 它们 都 是 
在 数据 处 理 和 发 布 之 后 的 服务 , 专门 针对 天 文 数据 处 理 整个 过 程 中 数据 流 的 数据 库 系 统 还 没有 先 
例 。 这 需要 我 们 在 充分 了 解数 据 处 理 流 程 及 其 过 程 中 所 涉及 到 的 数据 流 情况 的 基础 上 , 探索 建立 
适合 LAMOST 数据 流 的 数据 库 系统 ， 同 时 能 够 融合 光谱 质量 控制 机 制 进 来 ， 协 助 我 们 的 数据 存 
储 和 处 理 、 发 布 。 


1 数据 处 理 流程 分 析 


LAMOST 已 经 独立 建立 了 一 系列 数据 处 理 软件 ， 除 了 巡天 战略 系统 (SSS)、 观 测控 制 系统 
(OCS)、 二 维 光 谱 数 据 处 理 2D)、 一 维 光 谱 数 据 处 理 系统 (ID) 之 外 ， 数 据 质量 控制 还 需要 加 入 观 
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测 日 志 检查 环节 和 人 工 光 谱 检查 环节 等 。 以 下 是 LAMOST 数 据 处 理 过 程 中 涉及 到 的 关键 环节 : 

(1) 巡天 战略 系统 (SSS): 负责 自动 化 地 制定 观测 计划 ， 决 定 观 测 时 间 和 安排 观测 流程 ， 
充分 利用 LAMOST 的 观测 能 力 有 效 的 组 织 巡 天 观测 ， 提 高 观测 效率 ， 缩 短 观 测 周期 。 每 个 观测 
夜 大概 需 要 6-8 个 观测 计划 ， 每 个 观测 计划 大 概 有 3600 个 源 。 

(2) 每 日 观测 日 志 入 库 : 在 每 天 观测 完成 后 ， 结 合 人 工 复 核 ， 自 动 化 入 库 各 个 观测 天 区 实 
时 的 天 气 等 状况 ， 标 记 天 区 类 型 包括 : 科学 观测 与 否 、 月 相 、 数 据 是 否 有 效 等 ， 后 期 的 质量 控制 
会 根据 标记 选择 不 同 的 数据 发 布 策略 ， 比 如 对 于 无 效 数 据 将 无 法 发 布 给 用 户 。 

(3) 2D 数 据 处 理 软件 (2D Pipeline) Pl; 二 维 光谱 处 理 的 对 象 是 光谱 的 CCD 图 像 ， 目 标 是 
将 二 维 图 像 的 流量 抽取 成 一 维 光 谱 ， 并 扣除 本 底 流 量 、 杂 散光 、 宇 宙 线 和 天 光 的 和 干扰， 再 利用 定 
标 灯 进行 波长 定 标 , 利用 流量 标准 星 进行 相对 流量 定 标 , 最 后 将 同一 个 目标 的 多 次 曝光 和 红 蓝 端 
合并 成 最 终 的 光谱 ， 在 此 过 程 中 还 要 进行 例如 平 场 改正 在 内 的 其 他 的 改正 。 

(4) 1D 光 谱 分 析 软 件 (1D Pipeline〉 外 ， 它 的 处 理 对 象 是 2D 数 据 处 理 输 出 的 一 维 光 谱 ， 目 
的 是 对 光谱 进行 分 类 ， 并 测量 天 体 的 红 移 ， 然 后 对 恒星 进行 细 分 类 。 最 后 ，Pipeline 生 成 的 四 个 
主要 分 类 分 别 为 STAR,GALAXY,QSO 和 UNKNOWN. 

(5) CRIP! 为 了 提高 LASP 收 敛 速度 和 结果 的 准确 性 ， 相 关 函 数 初始 值 CCFD 测量 首先 会 
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N 的 大 气 参数 测量 值 。 
= (6) LASP®*!, LAMOST stellar parameter (LASP) pipeline 是 完整 的 大 气 参数 测量 程序 。 它 


专门 针对 分 类 为 AFGK 型 恒星 的 且 满 足 一 定 信 噪 比 条 件 的 光谱 , 用 Ulyss 程 序 自动 测量 给 出 他 们 的 
有 效 温度 、 表 面 重力 、 金 属 丰 上 度 和 视 向 速度 。 

(7) 星系 测量 软件 中， 星系 和 类 星体 的 识别 和 红 移 的 测量 是 一 项 艰巨 的 任务 ， 受 望远镜 极 
限 星 等 的 影响 ， 很 多 星系 和 类 星体 隐藏 在 低 质 量 光 谱 中 ， 因 此 1D pipeline 在 处 理 星 星系 和 类 星体 的 
光谱 上 还 有 一 定 的 缺陷 ， 而 且 往 往 。 所 以 ， 在 初始 的 1D 光 谱 分 析 运 行 完 之 后 ， 还 需要 一 个 额外 
的 独立 的 用 于 星系 识别 及 其 红 移 的 测量 的 pipeline。 

(8) 人 工 光谱 检查 : LAMOST 系 统 数 据 流 中 包括 两 个 人 工 检查 环节 ，2D 检 查 和 1D 检 查 ， 前 
者 是 为 了 发 现 定 标 星 有 无 异常 , 数据 有 无 杂 散 光 等 大 批量 的 数据 问题 , 后 者 是 为 了 保证 数据 分 类 
和 红 移 的 准确 性 。 只 要 这 两 部 分 检查 出 现 问题 ， 就 会 反馈 给 2D 或 者 1D 进 行 重新 处 理 ， 相 当 于 数 
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全 气流 出现 小 循环 。 
© 多 项 判 据 整 合 出 满足 数据 发 布 条 件 的 几 个 星 表 ， 0 息 中 心 对 搂 。 ARNE ERT 


和 人 工 检查 环节 共同 配合 完成 光谱 质量 控制 过 程 。 
(10) 发 布 数据 打包 : 在 星 表 整 合 完成 之 后 ， 对 于 即将 释放 的 光谱 数据 ， 需 要 根据 数据 发 布 
要 求 重 写 FITS 头 ， 重 新 画 缩 略 图 ， 以 备 数据 上 线 真 正 发 布 。 

C11) 数据 产品 发 布 : 按照 数据 发 布 要 求 的 节点 ， 我 们 会 将 整合 好 的 星 表 以 及 打包 好 的 数据 
一 并 推送 给 信息 中 心 ， 并 完成 相应 的 数据 统计 。 


[T 


2 数据 流 设计 与 光谱 质量 控制 要 求 


LAMOST 数 据 处 理 流 程 复 杂 ， 涉 及 环节 众多 ， 需 要 一 个 系统 级 的 核心 数据 库 来 将 这 些 
及 其 数据 进行 衔接 。 该 数据 库 系 统 的 用 户 包 括 LAMOST 巡天 与 数据 部 全 体 工 作 人 员 ， 重 点 是 
天 战略 系统 SSS， 观 测控 制 系统 OCS， 二 维 数据 处 理 系统 以 及 一 维 数 据 处 理 系统 开发 人 员 ， 通 过 
访问 该 数据 库 可 以 实时 获取 所 需 数据 、 分 析 处 理 结果 ， 从 而 改进 程序 处 理 方法 。 最 终 使 得 
LAMOST 数 据 库 能 够 达到 以 下 目标: 

(1) 对 于 天 文学 家 选 定 的 观测 目标 ,该 数据 库 系 统 存储 了 从 SSS 生 成 观测 计划 、OCS 获取 观 
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测 图 


析 和 比较 这 些 结果 对 程序 和 处 理 算法 做 出 改进 。 


一 套 高 效 的 数据 发 布 系统 。 


的 成 批 问题 ? 
着 将 要 对 
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像 、2D Pipeline 处 理 CCD 图 像 数据 以 及 1D Pipeline 输 出 光谱 产品 各 阶段 的 主要 信息 , 以 帮助 
天 文学 家 追踪 他 们 的 数据 ， 更 高 效 地 查询 各 个 处 理 过 程 的 中 间 结 果 和 获取 有 用 的 光谱 产品 输出 。 


(2) Pipeline 面 临 软 件 版 本 更 新 ， 这 时 候 需 要 对 上 一 版 本 处 理 过 的 数据 进行 再 次 处 理 ， 该 数 
据 库 系统 可 以 帮助 数据 处 理 程序 开发 人 员 存 储 和 管理 关键 数据 、 查 询 查询 处 理 结果 , 进而 通过 分 


(3) 具有 良好 的 可 扩展 性 和 兼容 性 ， 能 够 适应 时 刻 变 化 的 人 工 检查 和 数据 处 理 流 程 ， 能 够 
对 原 系统 最 小 改动 情况 下 实现 新 环节 的 系统 级 融合 和 提供 高 效 的 检索 服务 。 
(4) 本 数据 库 系统 一 维 数据 处 理 结 果 数 据 库 表 与 数据 存储 和 发 布 部 门 进行 对 接 ， 协 助 实现 


光谱 质量 控制 的 目标 就 是 及 时 发 现 光谱 质量 问题 ， 既 包括 由 杂 散 光 、 天 气 、 仪 器 等 原因 时 致 


E 谱 ， 又 包括 在 2D Pipeline 数 据 处 理 过 程 中 发 生 的 错误 导致 的 光谱 问题 。 然 而 ， 伴 随 
国内 外 天 文学 家 释放 的 光谱 ， 还 有 1D Pipeline 光 谱 分 析 的 结果 ， 分 类 红 移 等 。 对 于 低 质 
量 光 谱 ，1D Pipeline 不 能 保证 百分之百 的 正确 率 ， 所 以 也 需要 进行 质量 控制 。LAMOST 系 统 数据 


流 中 包括 两 个 人 工 检查 环节 ,2D Pipeline 结 果 检 查 和 1D Pipeline 结 果 检 查 , 一 方面 我 们 需要 结合 核 
心 数据 库 进行 检查 结果 的 写 入 和 查询 , 男 一 方面 也 需 结合 网 络 技术 将 人 工 检 查 环节 变 得 更 加 高 效 
和 方便 。 图 1 所 示 为 光谱 质量 控制 具体 的 流程 , 它 主要 是 分 为 恒星 和 星系 /类 星体 两 条 主线 来 完成 。 


AFGK 恒 星 : GALAXY&QSO : O/CARBON/M 型 星 
-{ 20 ) (src) 20 ) (sre): -{ 2) (sre) 
1 : 1 i Í 
1D 分 类 、 | 1D 分 类 、 10 分 类 、 
测量 红 移 测量 红 移 | 测量 红 移 
CrIBK 星系 类 星 
初 值 确定 体 识别 人 工 检查 
ULyss# 人 工 检查 _ | PESA 
数 测量 : I 测量 
和 了 
ERES 小 一 A 型 星 整合 
| REX 
TESA EE 
RA “恒星 参数 
数据 检查 | a85 
恒星 参数 
Ra 


图 1 LAMOST 光 谱 质 量 控 制 流程 图 


Fig.1 Illustration of LAMOST spectral quality control 


综 上 所 述 ， 我 们 的 质量 控制 要 求 达到 以 下 目标 : 
(1) 2D Pipeline 结 果 检 查 : 快速 浏览 光谱 ， 及 时 发 现 问题 并 录入 数据 库 。 
(2) 1D Pipeline RIVE: 对 河 外 光谱 ， 逐 条 检查 分 类 和 红 移 正确 性 ， 同 时 也 会 检查 选 源 


为 河 外 而 光谱 分 类 结果 是 恒星 的 光谱 部 分 ; 对 于 特殊 类 型 的 恒星 光谱 , 逐条 检查 分 类 和 红 移 正确 


性 ， 结 果 也 会 入 库 。 
(3) 实时 掌握 数据 处 理 各 个 环节 处 理 进 度 : 对 原始 数据 来 说 就 是 原始 数据 推送 情况 ， 单 次 


上 曝光 缺失 情况 等 ， 对 pipeline 来 说 就 是 处 理 进 度 ， 寞 常 监控 ， 系 统 负 载 等 情况 ， 对 人 工 检 查 来 说 


就 是 人 工 检查 进度 ， 任 务 分 配 等 。 
(4) 光谱 产品 


质量 控制 标记 、 生 不 


分 


追溯 :对 单个 目标 ， 可 以 给 出 它 自选 源 、 观 测 、pipeline 处 理 结果 、 信 噪 比 、 
周期 和 生命 结束 原因 等 的 查询 ;对 于 一 个 天 区 ， 可 以 提供 光谱 整体 质量 统计 


厅 ， 各 环节 输入 输出 检查 ;从 时 间 角 度 讲 ， 最 终 可 以 对 特定 时 间 点 提供 光谱 所 处 状态 的 查询 。 
《5) 数 据 流 检查 : 各 处 理 环节 能 够 实时 获取 其 输入 输出 结果 , 对 数据 库 和 文件 系统 及 pipeline 


201901.00002v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


进行 自 检 和 交叉 检验 ， 保 证 数据 生产 过 程 的 可 靠 性 。 

(6) 产品 封装 和 上 线 : 对 光谱 产品 进行 自动 化 的 包括 FITS 头 重 写 和 打包 在 内 的 封装 过 程 ， 
同时 实现 与 台 网 络 中 心 进行 数据 库 和 数据 对 接 , 为 每 季度 和 每 个 正式 对 外 释放 数据 提供 一 个 便捷 
的 数据 库 。 


4 系统 设计 与 实现 


要 一 并 完成 以 数据 库 为 核心 的 数据 流 设计 和 光谱 质量 控制 系统 ， 我 们 采用 了 
MySQL+PHP+Apache 的 架构 方案 。 开 源 关 系 型 数据 库 MySQL 为 我 们 提供 数据 流 存储 ，Apache 网 
页 服务 器 端 用 PHP 开 发 的 光谱 人 工 检查 与 结果 反馈 系统 为 我 们 日 常 的 光谱 检查 工作 平台 。 数据 库 
和 光谱 检查 平台 一 同 完成 光谱 质量 控制 。 以 下 是 所 用 软件 : 

(1) PHPS: 开源 、 足 平台 、 服 务 器 端 谍 入 式 动态 网 页 开发 脚本 语言 ， 具 有 数据 库 访 问 速度 
快 、 运 行 效率 高 、 性 能 稳定 等 优点 ， 完 全 文 持 SQL 标 准 ， 可 以 兼容 绝 大 多 数 数据 库 系 统 ; 

(2) Apache: 目前 应 用 最 广泛 的 web 服 务 器 软件 ， 它 文 持 多 种 操作 系统 ， 功 能 强大 且 完 全 
免费 ; 

(3) MySQL: 快速 、 多 用 户 、 多 线程 的 SQL 数据 库 服 务 器 软件 。 它 支持 标准 的 SQL 语句 ， 
支持 多 种 平台 ， 提 供 多 种 客户 程序 接口 ， 适 用 于 中 型 规模 应 用 ， 完 全 开源 。 

4.1 数据 流 设计 


LAMOST 数 据 流 图 


: | plan_info 天 区 信息 表 

J target_info 观测 计划 表 
= obj_info 2D 信 息 表 
> spec_info 1D 信 息 表 

J | ý \ : param_info 参数 测量 表 


— — T 
—, CFI 一 一 LASP Cn 
图 2LAMOST 数 据 流 图 


Fig.2 Illustration of LAMOST dataflow 
建立 LAMOST 数 据 处 理 系 统 离 线 数据 库 的 目的 是 有 效 维护 和 管理 数据 处 理 过 程 中 的 数据 
流 ， 在 不 同 的 数据 处 理 阶 段 不 同 的 软件 藉 担 着 不 同 的 职责 : 首先 ，SSS 目 标 是 为 巡天 观测 制定 观 
测 计划 ,根据 一 个 大 的 巡天 星 表 ， 结 合 观测 时 的 约束 条 件 ， 和 寻找 最 佳 位 置 ， 分 配 目标 到 光纤 。 这 
时 需要 将 必要 的 统计 信息 ， 比 如 导 星 数 量 、 目 标 数 量 、 成 功 分 配 数量 、 分 配 天 光 数 量 、 标 准星 数 
量 以 及 标准 星 信息 存 入 数据 库 以 便 2D 程 序 访问 。 同 时 ，2D 处 理 过 程 中 需要 利用 光纤 分 配 的 一 些 
信息 也 需要 在 观测 计划 生成 的 同时 写 入 该 数据 库 。 其 次 ,OCS 获取 原始 曝光 图 像 之 后 不 仅 把 数据 
打包 以 文件 夹 形 式 传 回 数据 中 心 ， 而 且 要 将 每 次 曝光 的 信息 ， 如 曝光 时 间 、 曝 光 时 长 、 光 谱 仪 狭 
颖 状态 以 及 光谱 仪 温度 等 信息 写 入 数据 库 中 ， 这样 2D 在 处 理 过 程 中 才能 获得 充足 的 信息 。 然 后 ， 
2D 每 处 理 一 批 原始 数据 ， 不 仪 将 其 处 理 的 中 间 结 果 、 最 终结 果 存 储 在 文件 夹 中 ， 而 且 要 将 各 个 
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目标 的 描述 信息 ， 包 括 目 标 对 应 的 光谱 仪 号 、 光 纤 号 、 观 测 计划 、 所 用 pipeline 版 本 号 、 处 理 日 


期 、 信 噪 比 、 输 出 文件 夹 路 径 等 信息 记录 在 数据 库 中 
姑 表 记录 来 处 理 一 维 光 谱 数据 ,最 终 也 将 有 价值 的 一 维 光 谱 信息 写 入 数据 库 中 。 星系 分 类 程序 也 


。 再 次 ，1D 通 过 得 询 数据 库 中 2D 输 出 的 信 


会 通过 读 取 数据 库 中 1D 分 类 结果 ， 将 指定 河 外 数据 信息 读 出 ， 待 程序 处 理 完 毕 将 其 结果 写 入 数 
据 库 供 人 工 检查 阶段 参考 。 最 后 ， 人 工 检查 环节 的 检查 结果 也 要 保存 下 来 , 在 后 期 的 星 表 整 合 过 


程 中 使 用 。 


图 2 为 LAMOST 数 据 流 设计 图 。 由 数据 库 和 文件 系统 将 各 个 环节 有 机 串联 起 来 ， 每 个 处 理 环 
节 都 将 会 与 文件 系统 或 者 数据 库 进 行 交 互 。 通 过 查询 数据 库 和 文件 可 以 实时 掌握 数据 处 理 各 个 环 


节 处 理 进度 ， 奶 溯 光 谱 产 品 ， 协 助 完成 光谱 质量 控制 。 而 对 于 人 了 


了 一 套 软件 ， 可 以 在 线 检查 光谱 ， 所 有 信息 也 会 记录 再 后 台数 据 库 中 。 


4.2 数据 库 设 计 


在 LAMOST 尚 未 正式 建成 之 前 ，[6] 设 计 了 基于 MySQL/Linux 的 基本 的 数据 库 原型 ，[7] 在 


[检查 环节 来 说 ， 我们 单独 开发 


C 


Sb 


导 巡 天 阶段 根据 实际 数据 处 理 情况 完成 了 LAMOST 的 总 体 数 据 库 设计 和 实现 。 在 此 基础 上 ， 我 


们 优化 设计 了 LAMOST 正 式 的 数据 库 系 统 。 


该 数据 库 系统 由 几 个 子 数据 库 组 成 : 数据 日 常 处 型 


数据 库 、 成 品 数据 库 、 光 谱 检 查 数 据 库 。 


其 中 , 数据 日 常 处 理 数据 库 用 于 存放 日 常数 据 流 中 各 个 环节 需要 用 到 的 信息 ; 成 品 数据 库 用 于 存 


放 整 合 好 的 可 以 对 外 释放 的 星 表 ， 而 这 里 面 又 分 为 alpha 版 和 


FE 式 版 两 个 数据 库 ， 光谱 检查 数据 


库 设计 用 来 存放 光谱 人 工 检查 相关 信息 和 记录 。 整 体 的 数据 库 结构 示意 图 如 图 3 所 示 。 以 下 简要 


介绍 各 个 数据 库 表 的 设计 和 结构 : 
* 日 常数 据 处 理 数据 库 : 


(1) plan_info: 天 区 信息 表 ， 包括 日 期 、 天 区 名 称 、seeing、 


一 条 记录 对 应 一 个 plate。 


(2) target_info: 选 源 信息 表 ， 存 储 选 源 信息 


月 相 、 是 否 科 学 天 区 标记 等 信息 。 


表 ， 一 个 记录 对 应 一 根 光 纤 。 一 个 plate 的 集合 对 


应 了 SSS 的 相应 观测 计划 。 该 表 包 括 了 目标 位 置 、 目 标 类 型 、 选 源 来 源 、 星 等 等 信息 。 


(3) obj_info: 二 维 目 标 信 息 表 ， 对 应 2D 抽 谱 信 息 ， 包 括 mask 编 号 、 天 区 名 称 、 光 谱 仪 号 、 光 


纤 号 、 上 曝光 次 数 、 数 据 版 本 、 信 品 比 、 抽 谱 完 成 存放 路 符 、 灯 谱 路 径 、 


(4) spec_info: 一 维 光谱 信息 表 ， 对 应 1D 光 谱 分 析 结 果 。 包 括 二 维 目 标 编号 、 


光谱 分 类 、 红 移 、 红 移 误 差 、 置 信和 度 、1D 光 谱 存 放 路 人 径 等 信息 。 
(5) param_info: 待 测 参数 的 光谱 信息 表 ， 包 括 满足 测量 大 气 参 数 的 AFGK 型 恒星 记录 。 提 供 


1D 光 谱 编 号 、1D 光 谱 路 径 、 参 数 测 量 标 记 、 拉 


平 光谱 存放 路 径 等 信息 。 


(6) cfi_param: CFI 信 息 表 ， 包 括 了 CFI 测 量 的 初始 大 气 参数 值 即 误差 。 


(7) cfi_param_norm: 光谱 拉平 后 CFI 信 息 表 
(8) uly_param: ulyss 参 数 测量 结果 表 ， 包 括 


平 场 路 径 等 。 


1D 软 件 版 本 号 、 


， 包 括 了 CFI 测 量 的 初始 大 气 参数 值 即 误差 。 


了 ulyss 精 确 大 气 参 数 测量 结果 值 。 


(9) uly_param_norm: 光谱 拉平 后 ulyss 参 数 测量 结果 表 ， 包 括 了 ulyss 精 确 大 气 参 数 测量 结果 


值 。 


(10) extragalaxy_info: 待 测 星系 或 类 星体 光谱 信息 表 ， 包 括 了 满足 星系 测量 模块 条 件 的 所 有 


光谱 记录 。 提 供 1D 光 谱 编 号 、1D 光 谱 路 径 、 信 


品 比 、 选 源 来 源 等 信息 。 


(11) GQ_info: 星系 测量 结果 信息 表 ， 包 括 


型 、 细 分 类 、 红 移 、 置 信 度 等 信息 。 
(12) GM_info: 星系 测量 结果 中 的 星系 部 分 
(13) QM_info: 星系 测量 结果 中 的 类 星体 部 


(14) fail2d: 2D 处 理 失败 光谱 仪 信息 表 ， 包 括 了 失败 光谱 仪 的 日 


败 原因 、 软 件 版 本 等 信息 。 


信 AR , 结 构 同 GQ_info o 
分 信息 表 ， 结 构 同 GQ_info。 


了 所 有 星系 模块 测量 出 来 的 星系 


或 者 类 星体 的 类 


期 、 光 谱 仪 号 、 天 区 名 称 、 失 


201901.00002v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


humanr check_ 
FAIZ 
pk:cid pk:objid k:cid 
fk:uid,sp fk:pid,ui iea 
ecid d l 


main 
catalog 
pk:specid 
fk:pid,tid, 
objid 


AFGK A index 


pk:specid pk:specid 
fk:tid fk:tid 


M index 


pk:specid 
fk:tid 


plan_i target obj_in GQ_in GM_in QM_in expos ccd_in 
nfo info fo fo fo fo ure fo 
k:ob — N 3 ; ” 
pk:tid P i J pk:cfii z pk:sp pk:sp pk:sp | | pk:eid ie 
pk:pid fk id fk:tid d pk:cfii d ecid ecid ecid fk:pid did 
Pp T fk:spe d fk:spe fk:tid fk:tid fk:tid ti 
p cid fk:spe cid 
cid 


图 3 数据 库 整 体 设计 图 
Fig.3 Designation diagram of the whole databases 

(15) ccd_info: CCD 状 态 信 息 表 ， 包 括 了 CCD 的 编号 和 增益 。 

(16) mask_info: MASK 定 义 表 ， 包 括 MASK 编 号 ， 类 型 和 含义 。 

(17) exposure: 曝光 信息 表 ， 记 录 每 次 曝光 的 日 期 、 开 始 时 间 、 结 束 时 间 、 曝 光 类 型 、 狭 颖 
状态 等 信息 。 

值得 注意 的 是 ， 这 里 仅仅 是 相同 版 本 处 理 软件 对 应 的 表 ， 如 果 从 2D 开 始 软件 升级 了 ， 那 么 
就 会 有 一 系列 新 的 表 产 生 ， 这 样 不 同 版 本 之 间 也 可 以 相互 比较 和 分 析 。 

* 成 品 数据 库 : 

(1) DR* 数 据 库 : 每 个 DR 都 有 自己 的 数据 库 ， 目 前 从 DR1 到 DR5 共 5 个 。 

总 光谱 星 表 : 整合 好 的 所 有 光谱 星 表 ， 包括 了 满足 发 布 条 件 的 部 分 ， 通过 if_release 字 段 是 否 
为 1 可 以 卡 出 来 。 一 条 记录 对 应 一 条 光谱 ， 包 括 了 选 源 信息 、 位 置信 息 、 分 类 、 红 移 在 内 的 所 有 
关于 这 颗 源 的 信息 ， 在 数据 发 布 时 ， 按 需 卡 出 子 集 和 所 需 字段 交付 给 信息 中 心 。 

-A 型 恒星 星 表 : 整合 好 的 A 型 星 参 数 星 表 ， 包 括 了 每 个 DR 所 有 A 型 星 的 线 指数 信息 。 

-M 型 恒星 星 表 : 整合 好 的 M 型 星 参数 星 表 , 包括 了 每 个 DR 所 有 M 型 星 的 分 子 带 指数 信息 等 。 

-AFGK 型 恒星 高 高 质量 量 光 谱 参 数 星 表 : 整合 好 的 高 质量 的 AFGK 型 恒星 大 气 参数 星 表 , 包 
舌 了 每 个 DR 所 有 AFGK 型 恒星 的 有 效 温度 ， 重 力 加 速度 ， 金 属 丰 度 ， 视 向 速度 及 其 误差 等 信息 。 

-天 区 信息 表 : 整合 好 的 所 有 以 观测 天 区 信息 表 ， 一 条 记录 对 应 一 个 plate， 包 括 了 中 央 星 位 
置 、seeing、 上 曝光 时 间 等 信息 。 

(2) DR*alpha 数 据 库 : 每 年 都 有 alpha 版 的 数据 于 每 个 季度 对 外 释放 ， 所 以 每 一 年 对 应 一 个 
alpha 数 据 库 ， 截 止 到 目前 共有 6 个 ， 即 到 DR6_ALPHA。 而 对 于 每 个 子 数据 库 ， 他 们 所 包含 的 数 
据 表 及 结构 都 是 一 样 的 。 

-总 光谱 星 表 : 结构 同 DR* 数 据 库 中 的 总 光谱 星 表 一 致 。 

-AFGK 型 恒星 高 高 质量 量 光谱 参数 星 表 : 结构 同 DR* 数 据 库 中 的 AFGK 型 恒星 高 高 质量 量 光 


让 


-天 区 信息 表 : 结构 同 DR* 数 据 库 中 的 天 区 信息 表 一 致 。 
这 里 没有 A 型 恒星 及 M 型 恒星 星 表 是 因为 数据 发 布 策略 规定 alpha 版 数据 只 提供 大 气 参数 ， 
用 测量 线 指数 。 


A 
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* 光 谱 检 查 数 据 库 : 

(1) chk_login: 记录 加 密 后 的 用 户 名 和 密码 信息 。 

(2) chk_member: 记录 用 户 信息 ， 编 号 ， 部 门 ， 权 限 等 。 

(3) check_status: 记录 光谱 检查 状态 ， 是 否 完成 及 完成 量 、 百 分 比 等 。 

(4) spec_check: 记录 需要 人 工 检查 的 光谱 的 信息 ， 比 如 fits 文 件 读 取 路 径 等 。 

(5) humanverify: 记录 人 工 检查 结果 ， 包 括 分 类 、 红 移 、 是 否 有 特殊 问题 等 。 

(6) humanrecheck: 记录 人 工 复核 结果 ， 内 容 主 要 是 分 类 和 红 移 。 

(7) 2dprob: 记录 用 户 反馈 的 原始 数据 问题 ， 包 括 杂 散光 、 负 流量 、 天 光 等 问题 ， 这 种 情 
况 下 需要 反馈 给 相关 工作 人 员 进 行 及 时 处 理 

对 于 以 上 数据 库 的 具体 表 字 段 设 计 ,， 本 文 不 一 一 效 述 , 在 此 仪 展示 光谱 检查 数据 库 的 逻辑 设 
计 图 ， 如 下 图 所 示 ， 具 体 表 信息 见 上 文 光谱 检查 数据 库 介绍 。 


o 


图 4 光谱 检查 数据 库 表 结构 与 关系 图 
Fig.4 Structure and Relationship Diagram of the Spectra eye-check database 
4.3 光谱 检查 与 结果 反馈 系统 实现 
为 LAMOST 可 同时 观测 4000 个 天 体 ， 每 个 观测 夜 就 能 得 到 近 3 万 条 光谱 ， 仪 器 效率 的 不 均 
衡 加 上 天 和 气 、 视 宁 度 的 影响 会 导致 数据 质量 即 信 噪 比 的 降低 , 进而 使 得 自动 分 类 和 测量 参数 的 结 


果 会 不 正确 。 与 此 同时 , 由 于 分 类 程序 升级 导致 的 同一 批 原 始 数据 分 类 的 结果 不 一 致 性 也 会 存在 。 
我 们 为 了 保证 每 一 条 光谱 它 的 分 类 和 测量 信息 的 准确 性 ， 就 需要 人 工 经 验 或 者 说 专家 知识 的 介 
入 ， 由 于 数据 量 大 ,逐条 进行 光谱 人 工 检查 是 不 切实 际 的 ， 本 软件 就 是 为 了 最 大 程度 的 辅助 专家 
进行 自动 化 的 光谱 检查 , 通过 该 软件 专家 或 者 天 文学 家 可 以 凭借 自己 的 专家 知识 , 对 每 条 光谱 标 
记 出 他 认为 正确 的 属性 信息 ， 对 于 由 于 观测 原因 导致 的 数据 不 可 用 情况 也 会 予以 反馈 , 所 有 信息 
将 记录 在 后 台数 据 库 中 。 
4.3.1 所 用 软件 及 技术 

该 软件 是 基于 BS 模 式 的 在 线 网 页 版 的 检查 系统 。 服 务 器 端 需要 用 到 基本 的 软件 包括 ; 

(1) MySQL 存 储 后 台数 据 库 数据 。 

(2) PHP 用 于 实现 动态 交互 式 网 页 。 

(3) Python 及 相应 的 天 文 软件 包 和 科学 运算 包 ， 用 于 远程 读 取 光 谱 数 据 的 FITS 文 件 。 
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(4) Apache 网 页 服务 器 。 


(5) 一 台 内 存 32G、 硬 各 2T 以 上 的 高 性 能 服务 器 ， 月 
只 需要 安装 有 浏览 器 就 可 以 登录 查看 。 


客户 端 


4.3.2 功能 设计 与 实现 
该 系统 设计 为 三 个 光谱 检查 部 分 ， 如 图 5 所 示 ， 一 个 是 星系 或 者 类 星体 等 比较 容易 错 分 的 少 


量 的 光谱 检查 的 页 面 〈 图 $5 左 上 ) ， 一 个 是 恒星 等 比较 不 易 
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昌 于 部 署 上 述 网 页 服务 。 


8 错 的 光谱 检查 的 页 面 〈 图 3$ 中 上 ) , 


同时 还 提供 一 个 按照 光谱 仪 进行 2D 预 览 检查 的 页 面 (图 5 右上 )。 该 软件 主要 实现 以 下 基本 功能 : 


ee 
于 HH 


上 | 


图 5 光谱 检查 页 面 展示 


Fig.5 Illustration of LAMOST spectra eye-check 


C1) 用 户 登录 ， 密 码 验 证 。 

(2) 光谱 逐条 查看 和 结果 提交 ， 这 是 针对 星系 和 类 星体 等 河 外 光谱 数据 ， 需 要 最 大 化 展示 
光谱 图 像 供 专家 查看 ， 给 出 正确 的 分 类 和 红 移 结果 ， 页 面 上 提供 细 分 类 单 选 按钮 供用 户 选 择 。 

(3) 光谱 浏览 查看 和 结果 提交 ， 这 是 针对 恒星 光谱 数据 ， 只 需要 成 批 的 浏览 查看 ， 对 其 中 
的 有 误 分 类 或 者 红 移 结果 进行 纠正 。 所 有 图 片 以 日 期 -天 区 -光谱 仪 号 -光纤 号 升序 排序 ， 点击 其 中 
任 一 幅 图 像 ， 可 以 自动 获取 该 图 对 应 的 id， 点 击 提交 之 后 可 以 记录 目前 查看 的 进度 。 

(4) 按 光 谱 仪 成 批 检 查 原始 数据 或 者 2D 处 理 是 否 有 问题 ， 并 将 其 标记 ， 
弃 它 ， 如 果 是 2D 处 理 问题 ， 我 们 会 将 标记 自动 反馈 给 2D 相 关 人 员 进 行 重新 处 理 。 依 
次 点 击 开 始 光 纤 号 和 结束 光纤 号 文本 框 ， 然 后 点 击 图 片 ， 网 页 会 自动 识别 光纤 起 止 编 号 。 当 用 户 
录入 问题 描述 并 点 击 提交 按钮 之 后 ， 该 起 止 编号 的 问题 光纤 就 会 记录 在 数据 库 中 。 


题 我 们 将 丢 


(5) 时 间 节 点 提交 功能 ， 浏 览 查看 页 面 中 记录 用 户 上 次 查看 的 最 后 位 置 ， 以 便于 下 次 接着 


如 果 是 原始 数据 问 


检查 而 无 需 
(6) 4 


从 头 查 看 ， 而 且 可 以 统计 已 经 检查 的 数量 ， 更 好 的 掌握 检查 进度 。 


[ 移 测量 ， 根 据 谱 线 匹配 测量 〈 图 $ 左 下 ) 。 该 网 页 用 Javascript 探 表 


减 小 ， 实 时 展示 光谱 谱 线 的 相应 变化 。 


(7) 检查 进度 查询 ， 可 以 查询 某 些 时 间 段 的 数据 检查 进度 〈 


| 光谱 红 移 的 增 大 和 


图 5 中 下 ) 。 


(8) 2D Pipeline 检查 结果 响应 ,2D 相 关 处 理 人 员 查 询 某 些 日 期 的 用 户 曾经 反馈 的 问题 , 确 
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认 问 题 并 在 数据 库 中 标记 ， 直 到 查询 结果 空白 就 表示 没有 任何 问题 (图 5 右 下 ) 。 

4.3.3 系统 测试 

将 以 上 功能 逐一 单独 测试 ， 该 软件 系统 都 能 顺利 完成 快速 SQL 读 写 ， 以 及 光谱 的 逐条 检查 或 
是 浏览 检查 、 红 移 测 量 等 功能 。 

将 该 系统 做 负载 能 力 测试 ，500 个 用 户 同 时 访问 ， 系 统 均 比 较 稳 定 。 对 于 数据 处 理 机 房 的 32 
台 刀 片 机 ,以 及 20 多 个 用 户 来 说 这 种 稳定 性 和 负载 能 力 足够 了 。 相 信 以 后 如 果 对 服务 器 和 硬盘 等 
各 种 硬件 环境 升级 的 情况 下 ， 性 能 会 有 更 大 提升 。 


5 总 结 结 与 展望 


本 文 针 对 LAMOST 数 据 处 理 特点 ， 结 合 了 数据 库 技术 和 网 络 技术 ， 设 计 了 LAMOST 数 据 处 
里 核心 数据 库 和 数据 流 , 开发 了 一 套 光谱 质量 控制 系统 , 第 一 次 在 兼顾 光谱 质量 控制 标准 的 同时 ， 
为 大 型 望远镜 后 期 数据 处 理 阶 段 提 供 了 数据 库 和 数据 流 设计 了 基础 模型 。LAMOST 二 期 巡天 已 
经 开始 ， 中 分 辨 数据 会 越 来 越 多 ， 在 后 续 工 作 中 ， 将 进一步 研究 中 分 辨 数据 处 理 和 发 布 需求 ， 优 
化 现 有 数据 流 和 数据 库 ， 同 时 将 质量 控制 扩展 到 中 分 辨 数据 处 理 中 去 。 


Aaa! 
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Research of LAMOST Dataflow Designation and Spectral Quality 
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Abstract: Guo Shoujing telescope(LAMOST) produces massive observational data every day. 
Data processing involves a series of processes, such as observation program generation, 
two-dimensional data reduction and one-dimensional data analysis, parameter measurement, quality 
control and data releases. In order to obtain, process, analyze and release data more efficiently and 
solve problems happened during data processing in a timely manner, the research of the LAMOST data 
flow designation and spectral quality control were carried out. Firstly, we intensively study the 
LAMOST dataflow and workflow. By combining the relational database, data modeling is fulfilled and 
the database system is realized based on MySQL, and the data processing and releasing segments are 
integrated organically. Then, ground on the former system, we define the spectral quality control model 
and establish the spectral quality control system to strictly control the spectral quality and spectra 
output, so as to provide guarantee for the releases of high-quality spectral resources. This system can 
well meet the needs of LAMOST data processing and data management, and is an effective scheme that 
can be extended to similar telescope systems for data storage and processing. 
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